home *** CD-ROM | disk | FTP | other *** search
/ Skunkware 5 / Skunkware 5.iso / src / X11 / wais / doc / wais-concepts.txt < prev    next >
Text File  |  1995-05-09  |  64KB  |  1,201 lines

  1.  
  2.  
  3.  
  4.            Wide Area Information Server Concepts
  5.                   Brewster Kahle
  6.                  Thinking Machines
  7.                   11/3/89
  8.                  Version 4, Draft
  9.  
  10. Wide Area Information Servers answer questions over a network feeding
  11. information into personal workstations or other servers.  As personal
  12. workstations become sophisticated computers, much of the role of finding,
  13. selecting, and presenting can be done locally to tailor to the users
  14. interests and preferences.  This paper describes how current technology can
  15. be used to open a market of information services that will allow user's
  16. workstation to act as librarian and information collection agent from a
  17. large number of sources.  These ideas form the foundation of a joint
  18. project between Apple Computer, Thinking Machines, and Dow Jones.  This
  19. document is intended for those that are interested in the theoretical
  20. concepts and implications of a broad-based information system.
  21.  
  22. The paper is broken up in three parts corresponding to the three components
  23. of the system: the user workstation, the servers, and the protocol that
  24. connects them.  Whereas a workstation can act as a server, and a server can
  25. request information from other servers, it is useful to break up the
  26. functionality into client and server roles.  A final section in the
  27. appendix outlines related systems.
  28.  
  29.  
  30. Ideas for this have come from Charlie Bedard, Franklin Davis, Tom
  31. Erlickson, Carl Feynman, Danny Hillis, the Seeker group, Jim Salem, Gitta
  32. Salomon, Dave Smith, Steve Smith, Craig Stanfill, and others.  I am acting
  33. as scribe.  Comments are welcome (brewster@think.com).
  34.  
  35.  
  36.  
  37.  
  38. Table of Contents
  39.  
  40. I. Introduction    
  41. II. The Workstation's Role in WAIS    
  42. A. Accessing Documents with Content Navigation    
  43. B. Dynamic Folders Find Information for the User    
  44. C. Using Information Servers    
  45. D. Other User Interface Possibilities    
  46. E. Advantages of Remote and Local Filtering    
  47. F. Local Caching of Documents    
  48. G. Local Scoring of  Competing Servers    
  49. H. Budgeting the User's Time and Money    
  50. III. The Server's Role in WAIS    
  51. A. Probing Information Servers    
  52. B. Examples of Information Servers    
  53. C. Navigating through the "Directory of Services"    
  54. D. Servers that Rate other Servers    
  55. E. The Role of Editors    
  56. F. Markets and Hierarchies:  Using Silicon Valley    
  57. G. How Server Companies Can Make Money    
  58. IV. The Protocol's Role in WAIS    
  59. A. Open Protocols Promotes Wider Acceptance    
  60. B. Hardware Independence    
  61. C. Protecting the User's Privacy    
  62. V. Conclusion:  Why WAIS will Change the World    
  63. VI. Related Documents    
  64. VII. Appendix:  Comparisons to Existing Systems    
  65. A. Compuserve    
  66. B. Minitel    
  67. C. NetLib    
  68. D. Switzerland system    
  69. E. Lotus and NeXT text system    
  70. F. Information Brokers    
  71. G. Hypertext    
  72.  
  73.  
  74.  
  75. I. Introduction
  76.  
  77. Distributing knowledge was first done with human memory and oral tradition,
  78. later by manuscript, and then by paper books.  While paper distribution is
  79. still efficient distribution mechanism for some information, electronic
  80. transmission makes sense for other.  This project attempts to install an
  81. electronic "backbone" for distribution of information.  Some information is
  82. already distributed electronically whether it is printed before it is
  83. consumed or not.  This project attempts to make electronic networks the
  84. distribution technique for more types of information by exploiting new
  85. technology and standardizing on an information interchange protocol.
  86.  
  87. The problems that are being addressed in the design of this system include
  88. human interface issues, merging of information of many sources, finding
  89. applicable sources of information, and setting up a framework for the rapid
  90. proliferation of information servers.  Accessing private, group, and public
  91. information with one user model implemented on personal workstations is
  92. attempted to allow users access to many sources without learning
  93. specialized commands.  A system for finding information in the sea of
  94. possible sources without asking every question of every source can be
  95. accomplished by searching descriptions of sources and selecting the sources
  96. by hand.
  97.  
  98. An open protocol for connecting user interfaces on workstations and server
  99. computers is critical to the expansion of the available information
  100. servers.  The success of this system lies in a "critical mass" of users and
  101. servers.  This protocol, then, could be used on any electronic network from
  102. digital networks to phone lines.
  103.  
  104. For the information owners to make their data available over a server, they
  105. must be easy to start, inexpensive to operate, and profitable.  One
  106. possible approach would be to provide software at a low price that will
  107. help those with information holdings to put their data on an electronic
  108. network.  The power of the current personal workstations is enough to
  109. enable sophisticate information servicing capabilities.  Charging for
  110. services can be done in a number of ways that do not entail setting up
  111. large billing operations.  In this way, it is easy to set up, operate, and
  112. charge for information services.
  113.  
  114. The key ideas that the WAIS system are that information services should be
  115. easily and freely distributed, that the power of the current workstations
  116. can provide sophisticated tools as servers and consumers, and that
  117. electronic networks should be exploited to distribute information.
  118.  
  119.  
  120.  
  121. II. The Workstation's Role in WAIS
  122.  
  123. The personal workstation has grown to be a sophisticated computer that can
  124. store hundreds of books worth of information, multiprocess, and communicate
  125. over a variety of networks.  The advanced capabilities of the workstation
  126. are used to find appropriate information for the user by contacting,
  127. probing, and negotiating with information servers.  The explosion of
  128. available information may change the way we use computers since the usual
  129. approaches to information on workstations may not grow to make the new
  130. information environment understandable.  The proposed mechanism involves
  131. finding information with one mechanism called "Content Navigation" whether
  132. the data is local or remote, available immediately or over time. This
  133. section details what a workstation might do to collect and present
  134. information from a variety of sources.
  135.  
  136.  
  137. A. Accessing Documents with Content Navigation 
  138.  
  139. Currently, the common way to find a document (or file) is the "Finder" on
  140. the Macintosh or most other machines.  This tree structure requires the
  141. user to remember where s/he has put each file.  This approach works when a
  142. user is familiar with the file organization.  It is also computationally
  143. efficient.  To aid those that have forgotten the exact location many
  144. systems have some way to locate files anywhere in the structure based on
  145. the filename ("Find File" on the the Mac, and "find" on Unix machines).
  146. The number of potential files increases as the disk space become less
  147. expensive and networks let users access remote files.  At some point, when
  148. the number of files becomes large, this organization can become unwieldy
  149. because of the amount the user has to remember.  Another technique that is
  150. currently popular is to augment documents with static HyperText links 1,2.
  151. These links help users move through 500 Megabyte CD-ROMs of data without
  152. being overwhelmed.  HyperText systems allows the author to provide "paths"
  153. through the document.  The HyperCard system, from Apple, also has a simple
  154. content searching mechanism that helps navigate without those links.
  155. HyperText links give the author another tool to guide the user and augment
  156. the capabilities of the file system.
  157.  
  158. A different technique that would allow access to a large collection of
  159. documents based on document content and similarity can be called "Content
  160. Navigation." With this tool, documents are retrieved by starting with a
  161. question in English.  A single line, or headline, would describe possible
  162. documents that are appropriate.  These documents can be viewed, or used to
  163. further direct the search by asking for "more documents like that one".
  164. Each document on the disk (or some other source) is then scored on how well
  165. it answers the question and the top scoring documents are listed for the
  166. user.  Since full natural language processing is currently impossible, each
  167. document type, be it and newspaper article or a spread sheet, must have
  168. some simple measure to determine how relevant it is to the question asked.
  169. For text documents a useful and powerful measure is to count the number of
  170. words in common between the question and the text.  This well known
  171. technique of Information Retrieval1 can be augmented with different
  172. weighting schemes for different words or constructions.  Other types of
  173. information might be retrieved with specific question formats.
  174.  
  175. Thus, documents can be found by asking the "navigator" for documents that
  176. contain a set of words.  Those documents that share the most words with the
  177. question will come back at the top of the list (have the best "score").  In
  178. this system the "answer" to a question is not a single document, rather it
  179. is an ordered list of candidate documents.
  180.  
  181. Content navigation is not new; NeXT and Lotus have implemented systems for
  182. personal computers,2 many text database systems on mini-computers, and the
  183. DowQuest system using a super-computer.  In general, there is no
  184. standardization yet on how these systems should be queried and used.
  185.  
  186.  
  187. B. Dynamic Folders Find Information for the User
  188.  
  189. Content navigation takes a question and returns an ordered list of possibly
  190. relevant documents.  The question can be further refined by giving feedback
  191. as to how relevant the documents were.  The results of a question can be
  192. seen as cousin to the file folder in that it contains a list of documents.
  193. In reality, the answers to a questions might not be a "copy" of a document,
  194. but a "reference" or pointer to a document.  These question and answer
  195. sessions can be saved just like a file folder can be saved.  Saving a
  196. session also frees the machine to find answers when the user in not
  197. looking.  This capability becomes important when some of the questions take
  198. time to answer because the data might be far away or difficult to answer.
  199. This section discusses one way to think of a saved question: a Dynamic
  200. Folder.
  201.  
  202. "Dynamic Folders" are a cross between a database query and a Macintosh
  203. folder that can give us great power in defining questions and probing
  204. databases.  Text database queries respond with a list of pointers to "hit
  205. articles", in the form of titles or headlines, that might interest the
  206. user.  At that point, the entire article can then be retrieved, if desired.
  207. A Dynamic Folder, similarly, has a question that is used to retrieve
  208. headlines.  Further a Dynamic Folder can be saved and viewed later.  Since
  209. a folder is a also structure that holds documents so that they can be
  210. viewed later, a Dynamic Folder is a folder that has a question associated
  211. with it..  In that way a dynamic view acts like a database query in
  212. collecting pointers to interesting documents and like a folder in that it
  213. can be closed and opened at different times.  A Dynamic Folder's question
  214. or "charter" acts as instructions to an active agent as to what what should
  215. be put in the folder.  This charter gives the folder a mission to keep
  216. itself full of appropriate pointers to files or documents.  This charter
  217. might be as simple as "all files on my personal disk that have a .c
  218. suffix", or all mail received in the last day.  In some circumstances, it
  219. is important for a Dynamic Folder to contain pointers to a part of a file
  220. rather than to an entire file.  Treating parts of files as first class
  221. documents is important in systems that group many independent documents in
  222. one file, such often done with e-mail or news articles.  In this way,
  223. "documents" and "files" are slightly different.
  224.  
  225. A Dynamic Folder's contents will change when the charter has changed, at
  226. fixed intervals, or when external events happen.  The user interface should
  227. indicate how current the folder is if it does not always appear up to date.
  228. Ideally, when a user changes the charter of a Dynamic Folder, the contents
  229. would reflect this instantly.  This is possible for local searches and some
  230. remote searches.  Sometimes, however, changes in the available documents
  231. can not be reflected immediately.  This is the case when indexing the
  232. contents of new files can take a while and is done in the background.  Some
  233. folders should be updated periodically to reflect new documents in remote
  234. databases.  For example, a folder that uses the New York Times should be
  235. rechecked every day for new articles.  Other updates to folders could be
  236. done based on events happening such as a new document being stored on the
  237. local disk.  This could cause all appropriate folders to see if that file
  238. is appropriate to add to the contents.
  239.  
  240.  
  241. C. Using Information Servers
  242.  
  243. Information servers sit on a network and answer questions.  A server,
  244. whether local or remote, has some database that can be queried and
  245. retrieved from.  These servers can be easily accessed by a workstation over
  246. a network with a standard protocol (see the Protocol section) using the
  247. Content Navigation tool to state queries and the Dynamic Folders to hold
  248. and coordinate the responses.  In this way, a user's sources of information
  249. can be seamlessly expanded past the contents of the workstation without an
  250. extra conceptual burden on the user.  Part of the "charter" of a Dynamic
  251. Folder, then, is the servers that it should use.  This combination of tools
  252. extends the reach of the user while maintaining a consistent view of
  253. information.  The capabilities of the servers will be discussed more in the
  254. server section, but it is important to see at this point that the
  255. workstation can be negotiating with a large number of local and remote
  256. servers.
  257.  
  258.  
  259. D. Other User Interface Possibilities
  260.  
  261. The "Dynamic Folder" is just one way to portray the results of a question.
  262. Other visual and aural possibilities have been suggested including draw
  263. from newspapers, books, library shelves, and sound recordings.  This
  264. section touches on these possibilities.
  265.  
  266. Presenting information in newspaper format has been tried at the MIT Media
  267. Lab (NewsPeek).  This approach shows not only a one-line headline, but also
  268. the writer, date, place, and first few paragraphs of the article.  This
  269. format expresses importance by the size of the headline typeface, the
  270. organization of the articles on the page, and the amount of text include on
  271. the first page.  Advertisements also have a place in such a presentation.
  272.  
  273. Using a book or a loose-leaf binder metaphor has been explored by the
  274. Hearst group at Apple.  In this model, the inside flap of the book is used
  275. to describe the charter of the book.  A table of contents is the headlines
  276. that can be retrieved.  Further, the book can have sections to it separated
  277. by tabs.  An index fits naturally into this model.  The Dynamic Folder is a
  278. version of this idea.
  279.  
  280. Borrowing from e-mail programs, listing the possibilities in order of
  281. importance has been the technique used by Thinking Machines and NeXT for
  282. displaying candidates.  Selecting an article brought the text to another
  283. window.  This interface style allows the user to mark "good" documents to
  284. further refine the question.  This approach is closely related to the
  285. Babyl, Rmail, and Zmail mail handler programs(ref?).
  286.  
  287. Showing the source of documents geographically was suggested by Tom
  288. Erickson of Apple.  In this approach, a world map can be used to show areas
  289. of interest.  This might be a good way to initiate browsing if geographical
  290. relevance is an important factor to the user.  The number of articles
  291. concerning or originating from an area can be displayed conveniently.
  292.  
  293. Presenting documents like books on a shelf is a familiar metaphor to
  294. librarians.  Information about the age of the book, how frequently it has
  295. been used, its size, if it is a picture book or monograph or pamphlet, when
  296. it was published (by the age of the font) are easily gathered with this
  297. presentation.  Grabbing a book and looking at it, or looking on the shelves
  298. close by are natural reactions in this metaphor.  I do not know of any
  299. attempts to display information in this way.
  300.  
  301. Generating a recording of a person reading the top articles can be useful
  302. for commuters.  With simple skip forward and back capabilities, this might
  303. be an effective way to deliver a custom newspaper to someone driving a car.
  304. This ideally would be done with a CD player, but a cassette could be used.
  305.  
  306. The Dynamic Folder is just one possible presentation idea.  This area will
  307. be an interesting area for research and prototypes.
  308.  
  309.  
  310.  
  311. E. Advantages of Remote and Local Filtering
  312.  
  313. When a user subscribes to a remote server, the user can get a complete copy
  314. of the database unfiltered, or can instruct the server to filter the
  315. documents remotely.  Printed newspapers are delivered whole whether all of
  316. it is relevant or not.  With electronic distribution, one can imagine a
  317. user asking for all sports articles but not the business articles.  A query
  318. is a form of filter that works at the server.  A broad query will retrieve
  319. a large number of documents that can be further filtered on the personal
  320. workstation.  The system and protocols can handle filtering at either or
  321. both ends.
  322.  
  323. Local filtering can done by the content navigation on the local disk after
  324. the documents have been retrieved.  The quality of this filtering will
  325. depend on the quality of the content navigator on the local workstation.
  326. The filtering might be able to use knowledge about the user that is
  327. impractical to deliver to a server.  Local filtering gives the user the
  328. most flexibility, but it could entail too much communication or too much
  329. disk space.  How much filtering will be done on the local workstation has
  330. tradeoffs that must be made on a server-by-server basis.  If the filtering
  331. is done locally, then the workstation might have a subscription to a server
  332. that periodically retrieves the newest articles.
  333.  
  334. Remote filtering can reduce the communications bandwidth as well as
  335. possibly offer better filtering.  A server can have better filtering
  336. capabilities because it can be database specific as opposed to the
  337. workstation's navigator that must be quite general.  Remote filtering, just
  338. like an interactive query, in initiated by using a question.
  339.  
  340. As communications, storage, and local computation costs change relative to
  341. each other, different filtering structures might make sense.
  342.  
  343.  
  344.  
  345. F. Local Caching of Documents
  346.  
  347. Documents that have been retrieved from a server are stored locally on the
  348. personal workstation in a cache.  A cache is a computer architecture term
  349. meaning fast, short term storage that helps speed up access by remembering
  350. commonly used entries.  In this context, a cache would store documents that
  351. the user has seen or might want to see so that access to those documents
  352. would be faster and easier.  A fundamental property of computer caches is
  353. that the use of the cache only makes access faster rather than changing any
  354. functionality.  In certain circumstances, it might be useful to relax this
  355. constraint, but this will be seen below.  Most interactive queries will
  356. only use the cache and local files because the cache will be up-to-date on
  357. its information subscriptions.  The cache is very important to make queries
  358. interactive even though data may have come from remote servers.
  359.  
  360. The document cache would be stored locally but is shared between all
  361. Dynamic Folders.  In this way, an article retrieved for one reason could be
  362. used in another folder without requiring two copies.  A central repository
  363. would have to be managed carefully to keep the most relevant articles but
  364. not to overload the storage.  A quota might be allocated to the cache, and
  365. a cache manager would make decisions about what should stay and what should
  366. go.  Sometimes the user should be consulted, and other times it can be done
  367. automatically.  The cache manager should keep header information on how
  368. each document in the cache such as: (1) what server the document came from,
  369. (2) how big it is, (3) if it was looked at by the user, (4) when it was
  370. retrieved, (5) what folders point to it, (6) if the user asked to keep it
  371. permanently, (7) what the user thought about it , (8) how hard is it to
  372. retrieve it again, (9) how to retrieve it again, if at all.  If a document
  373. has been deleted from the cache, but it is still being referenced by a
  374. Dynamic Folder, the header information should be preserved enough to be
  375. able to retrieve the document again.  In this way, deleting a document is
  376. not a catastrophe.
  377.  
  378. Since a cache can hold many of the articles seen by a user, the cache is
  379. useful in answering retrieving documents based on "I read an article once
  380. about..." (In a study of libraries users of scientific journals, about 60%
  381. of the articles read were found by browsing, and about 30% were from
  382. remembering that they saw it before and they wanted to know more).
  383. Supporting this type of question is important for a WAIS interface.  The
  384. cache can help here by storing all the documents that the user has read.
  385. If the cache can not store all of them then it can be instructed as to what
  386. type of documents it should keep on hand.
  387.  
  388.  
  389.  
  390. G. Local Scoring of Competing Servers
  391.  
  392. Since a Dynamic Folder can get its data from many servers, it must merge
  393. this data and present it in a meaningful way to the user.  While servers
  394. that rate other servers can help determine which server's answers should be
  395. valued (see the ***ratings section), these servers only rate the server as
  396. a whole and not the individual documents.  Furthermore, the article could
  397. be very good, just not appropriate to the question.  One way to order the
  398. responses presented to the user could be based on a "score" that is
  399. assigned to each response by the server.  Each server might, for instance,
  400. judge the appropriateness of its response to the question on a scale of
  401. 1-10.  These lists from multiple sources could be merged in that order
  402. (weighted by the ratings of the servers) and presented to the user.
  403. Unfortunately, since a server would want its data to be used, it has every
  404. incentive to rate all articles with at 10.  Thus, determining how much to
  405. trust the server's scores will improve the selection of documents presented
  406. to the user.
  407.  
  408. One possible solution to this problem is to have local scores for servers
  409. to augment what the server says.  Therefore, if a server always says "this
  410. answer is worth 10" and the user never finds it useful, then the personal
  411. workstation can lower the trustworthiness of that server's estimation of
  412. itself.  Saying 10 all the time is the equivalent to crying wolf; if it
  413. does it too often, then users will stop listening.  In such a scenario,
  414. then, all responses from that server could be degraded by 30% before it is
  415. used to merge in with the other database's responses.  On the other hand,
  416. other databases may underrate themselves and should be boosted.  This local
  417. scoring can be used to indicate a user's satisfaction with a database and
  418. could be used by others to help in rating it.  Further, this local score
  419. could be used to determine if the server is worth subscribing to or keeping
  420. its articles in the cache.
  421.  
  422.  
  423. H. Budgeting the User's Time and Money
  424.  
  425. Since the users workstation will be spending the users money to contact
  426. some servers, a system of accounting and budgeting must be installed so
  427. that users get the most value for their money.  The trade-offs of time and
  428. money can be tricky to try to represent, so a simple system should be
  429. attempted first.  The underlying premise is that the computer knows how
  430. much it cost to use different services.  This can be easy if a service
  431. charges for connect time.  If a service is reached with a long distance
  432. phone call, however this rate could be difficult.  (Maybe a server should
  433. be set up that knows how much the phone companies charge for different
  434. calls.)  Further, if a server charges based on the question, there must be
  435. a way for the protocol for limiting the amount spent.
  436.  
  437. Some queries are going to be very important to happen quickly or they are
  438. of no use.  Working this into the interface can be tricky.
  439.  
  440. Ideas towards automatic budgeting are still quite primitive.  They involve
  441. global limits per month, or limits per Dynamic Folder, etc.  Should the
  442. workstation enforce the limits?  Who can override the limits?  We need
  443. ideas on this one.
  444.  
  445.  
  446.  
  447. III. The Server's Role in WAIS
  448.  
  449. Servers sit on networks and answer questions.  Successful servers will have
  450. some expertise or service that others find useful whether it is primary
  451. information, information about other servers, or a service.  A file server,
  452. a printer, and a human travel agent can all be viewed as forms of servers.
  453. This section describes how servers might be used in a Wide Area Information
  454. Servers system.
  455.  
  456.  
  457. A. Probing Information Servers
  458.  
  459. Finding documents (or more generally, information) on one's personal disk
  460. is important, but finding relevant information on remote systems would
  461. extend the usefulness of personal computers.  Currently, most remote
  462. database accesses are not integrated with the workstation model using a
  463. "glass terminal" interface which does not use the power of the workstation.
  464. Some servers look like extensions of the file system and do integrate
  465. naturally (such as Sun NFS and AppleShare) but do not provide ways
  466. documents based on content.  One of the major goals of the WAIS project is
  467. to integrate wide area requests in a natural way with local area requests.
  468. This section will describe how different information servers could be
  469. integrated into this model.
  470.  
  471. Using the Dynamic Folder, the user creates lasting questions that can
  472. collect answers over time from a variety of sources.  The charter of a
  473. Dynamic Folder includes what sources should be used, which might include
  474. the local disk, local special purpose information servers (such as
  475. dictionaries etc), AppleShare file servers, and remote databases or WAIS
  476. (see the Examples of Information Servers section).
  477.  
  478. A wide area information server is a computer which provides information on
  479. a particular theme to other computers.  Servers sit on a network, such as
  480. the phone system, the Internet, or X.25, accept connections from other
  481. servers or users in order to answer questions in a standard format.
  482.  
  483. Each information server can be queried at the time the charter is updated,
  484. or it can be periodically polled for new information.  Newspaper servers,
  485. for instance, should be polled to find new articles, while dictionary
  486. servers should only be queried once because repeatedly asking the same
  487. question is pointless.  Thus, the user's workstation keeps information
  488. about each server.
  489.  
  490. While a map, a spread sheet, an airline ticket, or music might be the
  491. appropriate reply to a specific query, the initial question is stated in
  492. English.  A charter (or question) about "Beethoven's choral works" might
  493. result in an article from the encyclopedia server, a schedule of concerts
  494. from the newspaper server, and recordings from a music server.  Depending
  495. on the networks used, some responses might be impractical to retrieve, but
  496. the architecture allows for any type of information exchange.
  497.  
  498. A Dynamic Folder can also be used as an information server to other
  499. workstations.  This simple form of server can enable others to share
  500. information easily.  This capability should be put into the user interface
  501. to encourage people to exchange information.  A Dynamic Folder could be
  502. "exported" or made available to those that know about it, or "advertised"
  503. by adding it to a directory of services.  If it is entered into a directory
  504. (which is just another information server) then an English description of
  505. the folder should be included.
  506.  
  507. An information server is probed by putting it in the sources section of the
  508. folder's charter.  These servers can be varied in size, content, and
  509. location.  Using content navigation and Dynamic Folders we have an metaphor
  510. for accessing many types of information servers.
  511.  
  512.  
  513. B. Examples of Information Servers
  514.  
  515. Information servers, in the broadest sense, answer questions on a
  516. particular subject on some network.  Electronic networks have been used for
  517. years to distribute information in this way.  Some of the servers that are
  518. available on local area networks have been:
  519.  
  520. File serving
  521. Printers
  522. Compute servers (such as supercomputers)
  523. FAX
  524. Mail services and archives
  525. Bboard services
  526. Modem pools
  527. Shared databases
  528. Text searching and automatic indexing
  529. CD-ROM servers
  530. Conferencing
  531. Dictionary lookup
  532. User's locations (finger)
  533. Scanners/OCR
  534. 35mm Slide output
  535.  
  536. Wide area networks open up other possibilities for other services.  Some
  537. services will be offered because they are expensive to offer on a local
  538. basis, because it requires some special expertise or machinery, or because
  539. it is used infrequently on a local basis.  Examples of wide area services
  540. that could be offered: Current newspapers and periodicals Movie and TV
  541. schedules with reviews Bulletin boards and chat lines Archive searching
  542. through public databases Hobby specific information (ie sports scores or
  543. newletters) Mail order shopping services Banking services Talk services,
  544. bboard, and party line styles Directory information (both online sources
  545. and Yellow Pages) Scientific papers Government databases, such as patents,
  546. congressional record, and laws.
  547.  
  548. Library catalogs (eg. OCLC)
  549. Weather predictions and maps
  550. Usenet and Arpanet articles
  551. Maps with driving directions included
  552. Software distribution
  553. Remote conferencing
  554. Voice mail
  555. Music and video archives
  556. Pizza ordering
  557.  
  558. What services will be popular or commercially successful can only be
  559. guessed.
  560.  
  561.  
  562. C. Navigating through the "Directory of Services"
  563.  
  564. The Directory of Servers is an information server maintains a database of
  565. available servers and how they are contacted.  Like the white pages of the
  566. phone system the directory should be easy and cheap to use and include
  567. everyone.  Equally important, this directory is easy to add to.  Thus,
  568. people with something interesting to offer are encouraged to add their
  569. service to the directory.
  570.  
  571. A directory entry, however, should give enough information to understand
  572. what the service is and how to connect to it.  This entry is similar to a
  573. yellow-pages entry in the phone book since the goal is to advertise the
  574. service.  A directory entry includes: (1) Description of server in English,
  575. (2) the parent server if it is a subsidiary of a larger server, (3) related
  576. servers, (4) public encryption key, and (5) contact information including
  577. networks and contact points, (6) cost information.  A local workstation
  578. would keep extra information such as: (1) locally determined "score"
  579. reflecting usefulness (2) subscription information (if any), (3) user
  580. comments, and (4) time of last contact.
  581.  
  582. This information would be used to help determine when and if the server
  583. should be contacted, and how the responses should be handled.
  584.  
  585. Navigating in the sea of servers to find new servers can be done using the
  586. content navigation technique.  In this way a question on classical music
  587. would retrieve documents as well as directory entries.  This could be done
  588. by storing the directory entries on the local disk (in the cache) and
  589. accessing it just like local documents based on the appropriateness of the
  590. description.  Thus retrieving the document would show all the directory
  591. information.  In that way, a user that is unaware of a certain server would
  592. be presented with a description of that server with a listing of its hits
  593. for the current question so that s/he could effectively evaluate its
  594. potential value of the server.  If the server is added to the list of
  595. servers for that viewer, then it would be queried in the future.
  596. Maintaining an up-to-date list of services in the cache naturally falls out
  597. of content navigation and Dynamic Folders model because a directory of
  598. services viewer would have the charter to keep itself up-to-date on
  599. directory changes, and can be probed using content navigation.  The
  600. directory of services viewer would list the remote directory server or
  601. servers in the sources slot.  That way, the directory is kept locally and
  602. is fast to access.
  603.  
  604. Cost and availability information can help guide the workstation to alert
  605. its user to new choices of databases.  If a new server appears in the
  606. directory that is cheaper than the current server, then it could be
  607. suggested as an alternative server.  This can be complicated to do well,
  608. but the benefits of not having the user cull through new directory listings
  609. can warrant work in this direction.  As Stewart Brand said, "One of the
  610. problems with a market based system is that you are always shopping!"
  611. Hopefully, the workstation can do some of the mindless part of comparing
  612. servers.
  613.  
  614. Directories are classically owned and serviced by the communications
  615. companies.  In this role, the communications company is an unbiased party
  616. that profits from the use of the system as a whole.  Further,
  617. communications companies generally take on a teaching role to get users
  618. familiar with the system and aid those with problems.  This has been true
  619. with AT&T with the telephone, the different phone companies with the 900
  620. numbers, and the Network Information Center for the Arpanet.  Whether the
  621. communications companies take over this role or not, the directory must be
  622. supported by some organization or organizations that profit from the use of
  623. the system.
  624.  
  625.  
  626. D. Servers that Rate other Servers
  627.  
  628. With a large number of servers, it would be nice to know which ones are
  629. sponsored by crooks, and which ones are gems.  The directory of information
  630. servers necessarily accepts all applications for inclusion, just as the
  631. white pages do.  Unlike the white pages, however, is a description (or
  632. advertisement) of the server is included which can be misleading with the
  633. result that users are charged for contacting fraudulent servers.  Some
  634. protection can be offered by independent servers that rate or grade other
  635. servers.  These servers can serve somewhat the same roles as Consumer
  636. Reports, Better Business Bureau, and movie reviewers.  This section
  637. describes what rating services might do within the WAIS system.
  638.  
  639. Just as people use movie reviewers to help them select what movies to see,
  640. rating services can help in the selection of quality servers.  Servers that
  641. provide "grades" or reviews of other servers will become useful as the
  642. number of servers grow.  These ratings can come in many forms such as a
  643. numeric grade, formatted reviews that can be used with filters, or a free
  644. form discussion.  Thresholds can be used by different users to ensure that
  645. a server is proven before it is used.  This threshold might best be used in
  646. conjunction with the cost so that even worthless, but free databases might
  647. be tried.
  648.  
  649. These rating services can come from professional servers or from friends.
  650. A user does not have to subscribe to just one rating service, since a
  651. combination might be more useful.  Combining information from multiple
  652. ratings is an interesting topic for exploration.  Creating the ratings
  653. server with personal ratings could also be automated somewhat since, each
  654. user's workstation keeps track of how frequently a server has been found
  655. useful.  This information, or any other, can be exported so that other
  656. people can select servers that are commonly used.
  657.  
  658. Numeric ratings of servers can be merged into the user interface by helping
  659. order the documents suggested to the user.  Therefore, for some user,
  660. articles from the Wall Street Journal might get better scores than a
  661. similar article in the People's Enquirer.  This information could also be
  662. displayed by the color of the headline, for instance, so that unrated
  663. services would not be overly penalized.
  664.  
  665. Just as movie goers start to trust a reviewer that has agrees with them on
  666. past movies, users will trust rating services that they agree with.
  667. Selecting a rating service based on this criteria can have some interesting
  668. effects.  The rating services that a user has agreed with the most will
  669. single themselves out automatically.  Users with similar tastes would then
  670. find each other.  With such an arrangement, one could be lead to find other
  671. servers just because other users have liked it whether it is logically
  672. related to the common servers or not.  This is an automated form of the "if
  673. you like this book, then you will like this other book" system.  Further,
  674. if two users like many of the same things, then they might want to meet.
  675.  
  676. A generation of server speculators can also arise.  Since servers are paid
  677. based on people using them, a ratings server will want people to use them
  678. often.  If agreeing with user's past evaluations is criteria for using a
  679. ratings service, then predicting what people will like will be a lucrative
  680. business.  If a server turns out to be right, then it will be used more.
  681. This type of speculation is closely related to the stock market advisers
  682. that have become notable of late.  A difference would be that this form of
  683. speculation is trying to predict what will be interesting to people.
  684.  
  685.  
  686. E. The Role of Editors
  687.  
  688. One of the conclusions from the NewsPeek personal newspaper project at MIT
  689. (I hear) was that editors still had a place in the electronic age by
  690. reviewing and selecting certain articles as important.  Unlike the rating
  691. services, an editor grades specific articles as whether they are important.
  692. These grades are similar in many ways to the rating services and might be
  693. able to be merged.
  694.  
  695. A Dynamic Folder might have a charter like: "any article from the front
  696. page of the New York Times" which is a command to use what the editor
  697. suggests the top articles are.  Like the rating services, this can be
  698. independent of the sources of the articles and combine the information from
  699. multiple sources.
  700.  
  701. A form of editor server would be if users kept track of their favorite
  702. articles and put them in a Dynamic Folder and exported it for others.  This
  703. way, many favorite servers might emerge and articles could be selected
  704. based on friend's suggestions.
  705.  
  706. Automatically figuring out what the user thought of a document is tricky.
  707. Clues as to what the user thought of it are: (1) how many folders point to
  708. it, (2) if the user read it, how much of it, and for how long, (3) has the
  709. user ever taken any information from it to be used in other documents, (4)
  710. has the user ever referenced it.
  711.  
  712. This type of information could greatly improve users ability to deal with
  713. the flood of available information.  Furthermore, throwing away all the
  714. thoughts a user has about a document is denying others of that mental
  715. effort.
  716.  
  717.  
  718. F. Markets and Hierarchies: Using Silicon Valley
  719.  
  720. Currently there are several online information providers and many online
  721. information "brokers".  Brokers provide the connections between the
  722. workstations and the information providers (such as PC-link and
  723. Compuserve).  Sometimes these brokers have services of their own such as
  724. electronic mail and bulletin board services.  These brokers try provide a
  725. complete information environment by providing access to servers.  This
  726. structure forces a new information server to be connected to many brokers
  727. to have their product used since many users only use a few brokers..  The
  728. airline reservation program Eaasy Sabre, for example, is available on 20 of
  729. these broker networks.  The approach of WAIS is to have an open system of
  730. interconnection between users and servers where the brokers can act as a
  731. server, but is not an all encompassing information environment.  With an
  732. open system we have a "market" of information servers rather than a
  733. controlled environment or a "hierarchy"1 .  Such a structure could open up
  734. the field to many more servers and more sophisticated front-ends.
  735.  
  736. A market based approach would only standardize on the interchange formats
  737. leaving different companies free to store and service queries in any way
  738. deemed efficient.  The user interfaces, similarly, are free to evolve to
  739. fit users needs.  Since the protocol is not "terminal oriented" (as most
  740. systems are today), it frees the computers on either side to be
  741. sophisticated in serving the user.
  742.  
  743. Rapid evolution of a technology can happen in a market system if the
  744. structure is designed well.  As long as the protocols are flexible enough
  745. to start with, and a procedure for changing the protocol is established,
  746. then the components will evolve independently by companies seeking to gain
  747. a competitive edge.
  748.  
  749. Silicon valley is an example of a market based system that led to rapid
  750. evolution of hardware in the 1970's and software in the 1980's.  As the
  751. needs of the customers became understood and defined, larger companies that
  752. had good marketing and service reputations could make the profitable
  753. components without the help of the plethora of small companies.
  754. Information servers is an innately niche-based market given the diverse
  755. information needs of the population.  Furthermore, the industry is more
  756. like a service industry than a manufacturing one because of the continual
  757. need for updates and new information.  For these reasons, the silicon
  758. valley structure can help in the rapid evolution of this market.
  759.  
  760. The key is to have enough users to make the servers profitable.  Since,
  761. small companies can not wait long before investment turns to profit,
  762. achieving early income is important to get the system started.  A "critical
  763. mass" of users might form if the first interfaces were inexpensive or free,
  764. and a few useful servers were available.
  765.  
  766.  
  767. G. How Server Companies Can Make Money
  768.  
  769. If the WAIS system is to take off, then server companies must be able to
  770. make money.  Companies that offer servers can make money by billing users
  771. directly, using credit cards, or by using 900 numbers to have the phone
  772. system bill the users.  Direct billing is difficult to set up and can be
  773. expensive to operate, but large providers might want to do this.  Credit
  774. card billing has been a popular one for information providers.  This
  775. enables any network to connect the user to the server and then the user is
  776. charged for use of the server.  Typically, the first transaction with a
  777. server is a negotiation of how payment will occur and the allocation of a
  778. password for future transactions.  This could be automated in the WAIS
  779. system so that the workstation could know how much the costs will be and
  780. keep a total of everything spent.  A risk with the credit card system is
  781. that a credit card number in the hands of a crook can enable him to make
  782. fraudulent charges.  With the potentially large number of WAIS systems,
  783. this might prove dangerous.  Ratings services might be able to help weed
  784. out the fraudulent information providers (if any).
  785.  
  786. Another approach is to use a phone company service over 900 numbers.  When
  787. a company is assigned one of these numbers, callers are charged per minute
  788. of phone conversation and these charges appear on the phone bill every
  789. month.  Typically the phone company gets 50% of the revenue from this and
  790. the charges range from $.10 to $2 per minute (PacBell gets $.25 for the
  791. first minute and $.20 thereafter).  This approach eliminates the need to
  792. have a negotiation of credit card information and limits some of the risks
  793. of disclosing a credit card number.  On the other hand, the charge for
  794. billing is high.  Another limitation is that one must use the phone system
  795. to connect with the server.
  796.  
  797. In any case, there is very low overhead in starting a server and earning
  798. money.  All one needs is a phone, a computer, and some desirable
  799. information.  This is crucial to the success of the system.
  800.  
  801. All methods of billing are likely to be used and should be supported by the
  802. WAIS interfaces.
  803.  
  804.  
  805. IV. The Protocol's Role in WAIS
  806.  
  807. "... they have all one language; and this is only the beginning of what
  808. they will do; and nothing that they propose to do will now be impossible
  809. for them"
  810.                     Genesis 11:6
  811.  
  812. To connect a workstation to a server requires a communication network and a
  813. language to talk.  The communications network can be anything that allows
  814. computers to communicate such as modems, Internet, or digital phone
  815. networks.  A protocol is the language used to relate questions and receive
  816. answers between the workstations and servers.  This section describes some
  817. of the issues involved in this protocol.
  818.  
  819.  
  820. A. Open Protocols Promotes Wider Acceptance
  821.  
  822. It is important to the success of this system to have an open protocol that
  823. allows users to connect with servers.  Several models for how to create an
  824. open standard have been tried, such as: have a company own it and license
  825. it (Adobe, for instance), have a university develop it (X Windows, for
  826. instance), have a standards organization bless it (Common Lisp, for
  827. instance), and simply make the specification available and declare is open
  828. (IBM PC, for instance).  Each approach has advantages and disadvantages.
  829. The key point is that certain attributes be adhered to.
  830.  
  831. 1.  The companies that are developing the protocol must be open to using
  832. existing standards, and not feeling that new protocols should be protected.
  833.  
  834. 2.  A system for enhancements to the standard should be set up.  Standards
  835. committees are often used for this.
  836.  
  837. 3.  The standard should be able to transmit data in a variety of formats.
  838. There are many emerging multi-media standards.  A good standard will be
  839. able to transmit these information standards.
  840.  
  841. 4.  The query part of the protocol should be able to accept different
  842. formats of queries.  Queries might, eventually, have multimedia
  843. expressions.  These should be free to evolve with periodic standardization.
  844.  
  845. 5.  The query must have some method to transmit cost restrictions and
  846. time-outs.  It should also be able to handle query forwarding while
  847. avoiding circularities.
  848.  
  849. An idea for a query language is to use English that is restricted by the
  850. constructs that are understood by the servers.  As systems become more
  851. complicated, they can handle more English constructs.  In this way, future
  852. server systems can get more information from a query and produce more
  853. appropriate responses, simpler systems might use the words in the query
  854. without parsing the structure of the query.  This approach would allow the
  855. servers to change, while the not changing the human interface and the
  856. protocols.  The English language approach has been very successful for
  857. untrained users of the Dow Jones DowQuest system.
  858.  
  859. The overall success of this system largely depends on how well these
  860. protocols work and how they are made available.  There is a standard that
  861. could solve part of the problem: NISO Z39.50-1988.  This standard can help
  862. with connecting to servers, delivering queries, and getting responses back.
  863. It does not specify the query language or the format of the retrieved
  864. records.  Other standards may be able to aid other communications needs.
  865.  
  866.  
  867. B. Hardware Independence
  868.  
  869. Since this system depends on an open protocol rather than a particular
  870. implementation, the workstation, servers, and communications systems can
  871. all be made up of various hardware technologies that would evolve in time.
  872. This independence fosters an appropriate use of all hardware pieces, and a
  873. freedom to compete to produce the best components.
  874.  
  875. Each personal workstation platform has attributes that are appropriate to
  876. exploit differently.  These can be used to make tailored user interfaces.
  877. Further, a competition for the best caching and selection criteria should
  878. emerge which will hopefully settle into a good general standard.  As
  879. personal workstations start to handle audio and video, these can be
  880. retrieved with the WAIS system if the bandwidth is available.
  881.  
  882. Nintendo, for instance, makes a home computer that connects to the
  883. television that is installed about 25% of all American homes.  They are
  884. providing information services to 150,000 Japanese households using this
  885. technology.  This might be an attractive front-end to a WAIS system.
  886.  
  887. The server computers will range from personal workstations to
  888. supercomputers.  Most databases are under 1 gigabyte so they can be stored
  889. and processed with a personal workstation unless there are a very large
  890. number of users.  Supercomputers will be used in applications where there
  891. is a large amount of data or there are a very large number of users.
  892. Supercomputers can offer superior query handling by doing extensive work on
  893. each query.
  894.  
  895. The communications systems used should be any that are locally available.
  896. The bandwidth requirements for text can be satisfied with current phone
  897. systems using modems.  As advances in bandwidth and connectivity emerge,
  898. such as X.25, ISDN, and InterNet; then the range of offerings from the
  899. information providers should go up.
  900.  
  901. Since no component is centralized, this system is free to be established
  902. anywhere in the world.  Other more centralized systems, such as Minitel,
  903. have had difficulty in expanding outside of France.  This system should
  904. encourage independent regions to set up a compatible system because of the
  905. availability of software for servers and workstations.
  906.  
  907.  
  908.  
  909. C. Protecting the User's Privacy
  910.  
  911. "Electrical information devices for universal, tyrannical womb-to-tomb
  912. surveillance are causing a very serious dilemma between our claim to
  913. privacy and the community's need to know."
  914.                          Marshall McLuhan, Media is the Message
  915.  
  916. To encourage users to trust their personal machines with their data and
  917. interests, we must be sure to protect people's sense of privacy.  As
  918. machines start to learn more about their users and start to contact other
  919. machines on their user's behalf, the dangers to privacy are significant.
  920. There are technical as well as legal issues involved.  This section will
  921. cover the technical issues in protecting privacy (any good ref for the
  922. legal side?).
  923.  
  924. There is no easy way to protect a personal workstation if an intruder can
  925. get at the keyboard.  Since the workstation acts on behalf of the user the
  926. potential damage that could be done by a crook at the controls would be
  927. worse than is currently possible.  Since users will be leaving their
  928. computer on all the time so that it can contact servers and be used by
  929. other servers, we lose the security of the computer being off at night.
  930. One way around this might be to able to turn off input from the user while
  931. leaving the computer on to contact servers over the network.  If a user
  932. knows that she is never around at night or on weekends, then this profile
  933. might help lead the system to not trust off hour use and require a
  934. password.  The assumption so far in personal computers is that the machine
  935. stays in a secure physical environment and all protection must be directed
  936. to network connections.  This is not a safe long term solution, and should
  937. be thought through carefully.
  938.  
  939. Other risks are involved when dealing with networks.  There are problems
  940. with intruders, spies, and forgers.  An intruder will try to read, modify,
  941. or destroy data that the user did not intend to leave accessible.  Spies
  942. will watch the traffic from a user to determine the servers contacted and
  943. the content of the messages.  A forger will copy password information to
  944. act like a different user.
  945.  
  946. Network intruders can be prevented from reading unwanted data by the user
  947. only exporting certain Dynamic Folders to become servers for the outside
  948. world.  A question is whether we want "group" access as well as "world"
  949. access as in the Unix file system or some other layered approach.  A
  950. Dynamic Folder only contains pointers to information.  If the information
  951. is on the local disk, should that be accessible by a remote machine?
  952. Should those files be protected from being read?  If the information came
  953. from a remote database, should the requester be required to get it from the
  954. source even if a copy is on site?  What are the copyright issues here?
  955. Spies can watch communications networks and collect passwords and credit
  956. card data if this information is sent in clear text (not encrypted) as well
  957. as read the data.  A public key system makes sense in this application
  958. because the directory information can include a key.  Public key systems
  959. are those that everyone can lock a message (encrypt) for a recipient, but
  960. only the recipient can read it.  Presumably the public key system would be
  961. used in establishing a connection and a special key for the conversation
  962. would be established.  Current public key systems are too compute intensive
  963. to be used for large volumes of data.  A conversation key could be used
  964. with DES or some other encryption system that is easier to compute (usrEZ
  965. software has a product that runs at 30k characters/second on a MacII).
  966. Adoption of such a system early in the WAIS development would ensure that
  967. this type of protection is assumed in modern information systems.
  968.  
  969. Forgers can be foiled with a system of authentication.  Authentication is
  970. important when the charges are high or when the system is used for ordering
  971. goods.  One solution is to use a public key signature system that is easy
  972. to implement using the public key system (ref the Public Key papers).  A
  973. signature is passed so that only the sender could have created it.
  974.  
  975.  
  976.  
  977.  
  978. V. Conclusion: Why WAIS will Change the World
  979.  
  980. Historically, when the distribution of information became easier or less
  981. expensive, and explosive growth in learning occurred.  Wide area
  982. information servers are a new way to distribute information.  Since anyone
  983. with a personal computer, a phone, and some information can be a server,
  984. people are free to create and distribute their work in ways that paper
  985. distribution made impractical.  The current electronic databases, in
  986. general, do not have a standard for interchange.  Just as the railroads
  987. were owned and controlled by relatively few people current database brokers
  988. control access and hence the production of data.  The highway system was
  989. not owned by anyone and the incremental cost to start a new business was
  990. very low.  Small businesses flourished partly because of this.  WAIS
  991. systems, similarly, have very low initial costs and low distribution costs
  992. which can pave the way to many servers in a short time.
  993.  
  994. Since the WAIS system is founded on computer to computer communications,
  995. new servers that just learn from other servers and produce useful
  996. information or analysis can become profitable.  Such a server could be
  997. thought of as "smart" and the better servers will learn from other servers
  998. and from its own mistakes.  Thus a distributed "smart" intelligence can be
  999. formed.
  1000.  
  1001. BBoard systems have not produced any astounding works of literature, I
  1002. suggest, because it is difficult to reference older works.  If older works
  1003. were easy to find and reference, then people would be more inclined to make
  1004. better entries.  Better entries would get more references and be used more.
  1005. No BBoard systems, that I know of, make this easy.  Since editors, content
  1006. searching, and archiving are all fundamental parts of the WAIS
  1007. architecture, we stand a better chance of high quality works being
  1008. produced.
  1009.  
  1010. A large server, or sage, has a role in this distributed system because it
  1011. can infer correspondences between many pieces of information.  Further,
  1012. large servers will have many users that it can learn from.  Users will
  1013. teach a server what is important just by using the server.  Thus a large
  1014. server will be the place that great new ideas will be created based on lots
  1015. of existing information.  This new form of intelligence, that is formed out
  1016. of many participating people and machines, is an exciting prospect.
  1017.  
  1018.  
  1019.  
  1020. VI. Related Documents
  1021.  
  1022.  
  1023. Blip Culture Hypermedia, Harry Chesley, Apple.
  1024.  
  1025.  
  1026. Catalyzing a Market of Wide Area Information Servers, Brewster Kahle.
  1027.  
  1028.  
  1029. Wide Area Information Server Demonstration, Brewster Kahle and Charlie
  1030. Bedard.
  1031.  
  1032.  
  1033. Electronic Markets and Electronic Hierarchies, Thomas Malone CACM June
  1034. 1987.
  1035.  
  1036.  
  1037. Introduction to Modern Information Retrieval, Gerald Salton, Cornell.
  1038. McGraw Hill.
  1039.  
  1040.  
  1041. Parallel Free-text search on the Connection Machine, Stanfill and Kahle
  1042. CACM Dec 1986.
  1043.  
  1044.  
  1045.  
  1046.  
  1047. VII. Appendix: Comparisons to Existing Systems
  1048.  
  1049. There are always precedents to any system, this one included.  Some are
  1050. academic and some are commercial; some are computer oriented and some are
  1051. human services; some are special purpose and some are generally useful.
  1052.  
  1053. A.  Compuserve;(of Columbus Ohio, 1-800-848-8199) is a phone based service
  1054. with about 1000 services with 500,000 PC subscribers.  It includes BBoards,
  1055. hobby services, home shopping, email, multiuser online games, etc.
  1056. Interestingly, they have contracted with the government to accept Export
  1057. License Application transactions and other user interface functions.  They
  1058. have "Personal Newspaper" products and deliver data from many publishers.
  1059. They own a lot of the underlying communication system, but are afraid of
  1060. ATT and Baby Bells.  They are building sophisticated user interfaces for
  1061. the PCs and MACs.
  1062.  
  1063. Compuserve is owned by H&R Block and charges by the minute.  They handle
  1064. their own billing.  They have recently bought most of their competitors
  1065. (The Source, Access, Software House of Cambridge, and Collier-Jackson of
  1066. Tampa Florida) and are making a fortune.  They turned a profit in 4th
  1067. quarter fiscal 1985 and by the end of fiscal 1986 it recorded a profit of
  1068. $1.7 million on $100 million revenues and 300,000 users.
  1069.  
  1070. Compuserve is the closest model and can be easily accessed with the WAIS
  1071. system.  On the other hand, WAIS helps you find the database you are
  1072. interested in, does not use a terminal interface (you use your PC with all
  1073. of its speed), and WAIS offers subscriptions to services where your PC will
  1074. keep itself informed automatically. Most importantly, WAIS is not "owned"
  1075. by anyone and is free to grow independently from a centralized company.
  1076.  
  1077. (For more technical information I have a book of their services, Thinking
  1078. Machines has an account, and I have a series of articles describing their
  1079. business activities.)  B. Minitel; in France is an outgrowth of the phone
  1080. company.  As an alternative to phone books, users were offered terminals
  1081. for their homes. Many people took the terminal.  By all reports it has been
  1082. a very popular system.  A 1986 news report said: "The directory for Minitel
  1083. services is now the size of a phone directory for a small city, evidence
  1084. that Minitel is a success."  George Nahon, managing directory of
  1085. Intelmatique: "Then need to create a market of users emerged as a
  1086. prerequisite for a service." One reports speculated that France has put
  1087. about $500 million into the system by 1986.
  1088.  
  1089. Their interface is a terminal type interface and the servers are both human
  1090. and machine.  [Europe is the most exciting continent for information
  1091. services.  It seems that they take this very seriously, while the US
  1092. government has yet to take the bold steps of investment and
  1093. standardization.]  C. NetLib; is a free Unix utility for distributing files
  1094. through the email.  Anyone that has access to the servers via electronic
  1095. mail can make inquiries and file requests.  This system currently has about
  1096. 100 (a guess) collections world-wide and is growing.  In 1987, about 10,000
  1097. requests per month were serviced.  The bulk of the offerings are software
  1098. programs rather than raw data.  Since no charges are made for queries or
  1099. requests this system is used by academics and researchers.  ATT and Argonne
  1100. labs are supporting this work.
  1101.  
  1102. The automatic reply system (remote-machine-to-local-machine rather than
  1103. remote-machine-to-local-human interface) in NetLib is similar to the WAIS
  1104. system.  WAIS, however, is not centered solely around EMail as a transport
  1105. layer; it uses the phone system as well for interactive use.  Also, WAIS
  1106. would help find databases that are relevant and handle the queries and
  1107. requests through a more "user friendly" interface.  (For more on NetLib see
  1108. Distribution of Mathematical Software via Electronic Mail in Communications
  1109. of the ACM May 1987) D. Switzerland system; Still assessing this system.
  1110.  
  1111. E. Lotus and NeXT text system Both Lotus and NeXT have text searching
  1112. systems that are similar to Thinking Machine's Dow Jones system, but are
  1113. based on local data (LAN based).  Since disks hold close to 1 gigabyte
  1114. these days, and the entire CM at Dow Jones holds 1 gigabyte, we are close
  1115. in scope but not performance.  On the other hand, a PC will serve its 20
  1116. users adequately and the new daily information can be effectively
  1117. distributed from Dow Jones and other places.  Lotus seems to be getting
  1118. into the information distribution business and is writing software to
  1119. process that data locally.
  1120.  
  1121. These companies see themselves as critically involved in this area.  I
  1122. believe cooperating with them is in our best interest.
  1123.  
  1124. F. Information Brokers Many companies act as brokers to other information
  1125. providers.  Often these services will offer electronic mail and bulletin
  1126. boards.  These private systems rarely communicate with each other.  The
  1127. systems that I know of are listed below.  If anyone has any information on
  1128. these or other companies, please tell me.
  1129.  
  1130. AppleLink(Personal Edition)    1-800-227-6364        getting info
  1131. Delphi                 1-800-544-4005        getting info
  1132. Dialcom, Inc.             1-800-435-7342             
  1133. GE Information Services     1-800-433-3683        getting info
  1134.  
  1135. This company services the fortune 500 companies with network and processing
  1136. services using Honeywell and IBM mainframes.  They lease lines from ATT and
  1137. provide an environment for their customers including network services and
  1138. value added filtering and massaging of data.
  1139.  
  1140.  
  1141. GEnie                 1-800-638-9636         getting info
  1142. IBM Information Network     1-800-IBM-2468 ext 100
  1143. INet 2000/TravelNet         1-800-267-8480         bad number
  1144. Inet                1-800-322-INET
  1145. NWI                 1-800-624-5916             
  1146.  
  1147. Quantum Computer Services since 1985, privately held, "multimillion
  1148. dollars" official commodore info service.  Has been supported by commodore.
  1149.  
  1150. PC-link            1-800-458-8532        IBM PC product
  1151. Q-Link              1-800-392-8200         Commodore product
  1152. America online                     Mac product
  1153.  
  1154. Snet                 1-800-272-SNET Dept AA
  1155. The Source             1-800-336-3366
  1156. StarText             1-817-390-7905
  1157. Travel+Plus             1-800-544-4005
  1158. US videotel             1-713-323-3000
  1159. Western Union EasyLink        1-800-779-1111 Dept 31
  1160. Minitel Services         1-914-694-6266
  1161. Omnet/SCIENCEnet         1-617-265-9230
  1162.  
  1163. Other systems that I would like to find out more about: Holland system,
  1164. Prodigy, Knight Ridder, Audio Tex, Airline Reservations system, Hospital
  1165. Ordering System, Verity, Personal Newspaper (Media lab), Information Lens
  1166. (Media Lab), SuperText.
  1167.  
  1168. G. Hypertext Hypertext and WAIS share many attributes for accessing textual
  1169. information.  In some sense, WAIS is an attempt at a large-scale hypertext
  1170. system by allowing links to be deduced at run-time and across many
  1171. databases stored in many places.  Since servers provide pointers to
  1172. documents, a pointer to a document can be put in a document and retrieved
  1173. at a later time.  Thus document pointers can be thought of as a crude form
  1174. of hypertext link.  This form of deducing hypertext links through content
  1175. navigation might lead to interesting paths that are tailored to a
  1176. particular user.  Automatic systems will never replace the value of having
  1177. users suggesting links.  Suggested links can be added directly to the
  1178. documents (as in most hypertext systems) or then can be made available in a
  1179. distributed manner through the favorites databases.  In this way, users
  1180. that found certain articles to be similar or usefully viewed together can
  1181. put them in a folder and export it as a database.  One might ask, "Does
  1182. anyone have these documents grouped in a server, and if so, what other
  1183. documents are in that server?" These databases could then be used by others
  1184. as evidence that they belong together.  By combining many people's
  1185. groupings, one can navigate through large number of documents in
  1186. potentially interesting ways in a hypertext style.
  1187.  
  1188. 1 Nelson, Ted.  Literary Machines.
  1189.  
  1190. 2 HyperCard by Apple (ref?)  
  1191.  
  1192. 1 Salton, Gerald.  Introduction to Modern Information Retrieval, McGraw
  1193. Hill.  1989.
  1194.  
  1195. 2 NeXT calls theirs the Digital Librarian, and Lotus calls theirs Megellan
  1196. (sp?).
  1197.  
  1198. 1 Malone, Thomas, et al.  Electronic Markets Electronic Hierarchies, CACM
  1199. June 1987 Volume 30, number 6.
  1200.  
  1201.